Data Processing
In Machine Learning werden Milliarden an einzelnen Daten benötigt.
Daten als Grundlage müssen verstanden sein.
Quellen
- Sensoren
- Umfragen
- Simulationen
- Social Media
- Texte
- Finanzen
- Multimedia
- ERP System Data
Datentypen
Nominal Categorical Data
Benutzt für Bezeichnungen, die ungeordnet sind
- Haarfarbe
- Geschlecht
Ordinal Categorical Data
Geordnete Bezeichnungen
- Rang
- Bewertung in Sternen
Continous Numerical Data
Werte die gezählt werden können
- Anzahl Personen in einem Raum
Discrete Numerical Data
Interval Daten, werden oft gemessen.
- Exakte Menge ([0, 20])
Datenklassen
- Eindimensionale Daten
- Mehrdimensionale Daten
- Netzwerkdaten
- Hierarchische Daten
- Zeitserien
- Geographische Daten
Struktur
### Strukturiert
-
Datenmodelle
-
csv
-
ods
-
xlsx
-
HDF (Hierachical Data Format)
Nicht strukturiert
- Hat kein fixes Format
- Hat keine Struktur
Metadata
Beschreibende Daten zu Bildern
Data Pre Processing
Shit in - Shit out
Probleme
- Schreibfehler in Quellen
- Falsches Format von Daten
- Falsche Berechnung von Eingabedaten
- Verschiedene Klassifizierung von gleichen Inhalten
- Doppelte Inhalte in falschen Werten
Methodiken
Duplicate Search
Vektorvergleich
Near Duplicate Search
- Titeln: Die Levensteindistanz gibt an, wie viele Operationen notwendig sind, um von einem Text auf den anderen zu kommen.
#### Vektoren
CoSine Similiarity
### Fehlende Daten
- Interpolation / Annahme durch andere Werte
- Löschen / nicht zu oft, um Mengen nicht zu verfälschen